ارائه ی الگویی بهبود یافته برای طبقه بندی مستندات متنی موجود

پایان نامه
چکیده

امروزه حجم قابل توجهی از اطلاعات موجود در قالب متن ذخیره شده اند؛ بنابراین استفاده از ابزار هایی که به استخراج دانش از میان این دریای عظیم داده های بپردازد اهمیت زیادی پیدا کرده است. ذات غیر ساخت یافته ی متون باعث شده که متنکاوی نیاز به مرحله ای مهم به نام پیش پردازش داشته باشد؛ هرچه پیش پردازش قوی تری داشته باشیم نتایج بهتری را در سایر مراحل خواهیم داشت. در این پایان نامه سعی شده به حل چالش ها و مسائل حوزه پیش پردازش و در نهایت طبقه بندی متون بپردازیم؛ از جمله دستاورد های این پایان نامه می توان به موارد زیر اشاره کرد:یک روش جدید وزن دهی ویژگی، مخصوص طبقه بندی مستندات ارائه شده است. مقایسه ی این روش با روش های وزن دهیtfidf، tfrf، tfcrf نشان دهنده ی کارایی خوب این روش نسبت به سایر روش ها می باشد. از روش ارائه شده برای ارائه یک روش حذف خودکار کلمات زائد متن، استفاده گردیده است؛ سپس تاثیر حذف کلمات زائد با استفاده از روش پیشنهادی و با استفاده از لیست از قبل تهیه شده را بر روی طبقه بندی مقایسه نموده ایم،که نتایج گویای بهبود کارطبقه بند در هنگام استفاده از روش پیشنهادی بوده است. با توجه به اهمیت وجود دیکشنری برای طبقات مستندات، الگوریتمی جدید برای استخراج دیکشنری ارائه و سپس ارزیابی شده است. در پایان الگوریتمی جدید برای طبقه بندی مستندات ارائه نموده ایم، که این الگوریتم را با روش های متفاوت وزن دهی مورد بررسی قرار دادیم. در ادامه با طبقه بندی تصادفی اولیه ی متفاوت نیز الگوریتم پیشنهادی را بررسی کردیم که تمامی نتایج به دست آمده گویای کارایی بالای این الگوریتم می باشد. همچنین در انتها نیز به ارزیابی عملکرد الگوریتم پیشنهادی نسبت به سایر الگوریتم ها پرداختیم، که الگوریتم پیشنهادی دارای بهترین کارایی در بین سایر الگوریتم ها بود.تمامی موارد ذکر شده را پیاده سازی و در قالب سیستمی نرم افزاری ارائه نموده ایم.

منابع مشابه

مقایسه ی طبقه بندی علل خارجی صدمات در کشورهای منتخب و ارائه ی الگویی برای ایران

Introduction: Injuries are among the most important causes of deaths and disabilities. External causes of injury codes help us to identify high risk population subgroups for a particular cause of injury, to identify the place of occurrence for specific types of injuries and to develop prevention strategies of injury. This study was aimed to classification of external causes of injuries in selec...

متن کامل

مقایسه ی طبقه بندی علل خارجی صدمات در کشورهای منتخب و ارائه ی الگویی برای ایران

مقدمه: صدمات یکی از مهمترین علل مرگ و ناتوانی است. بسیاری از صدمات قابل پیشگیری هستند. کدهای علل خارجی صدمات در شناسایی زیرگروه های جمعیتی در معرض خطر جراحات خاص، در شناخت مکان حادثه برای انواع خاصی از صدمات و درتوسعه برنامه های پیشگیری از صدمات به ما کمک می کند. هدف پژوهش حاضر مقایسه ی طبقه بندی علل خارجی صدمات در کشورهای منتخب و ارائه ی الگویی برای ایران بود. 1385 انجام شد. ابزار گردآوری داده...

متن کامل

ارائه مدلی برای استخراج اطلاعات از مستندات متنی، مبتنی بر متن‌کاوی در حوزه یادگیری الکترونیکی

As computer networks become the backbones of science and economy, enormous quantities documents become available. So, for extracting useful information from textual data, text mining techniques have been used. Text Mining has become an important research area that discoveries unknown information, facts or new hypotheses by automatically extracting information from different written documents. T...

متن کامل

زمان بندی جریان های نقدی و رویدادهای اقتصادی: الگویی برای طبقه بندی اقلام تعهدی

پیش‌بینی جریان‌های نقدی و تغییرات آن به عنوان یک رویداد اقتصادی از دیرباز مورد توجه قرار داشته است چرا که، پیش‌بینی مناسب جریان‌های نقدی بخش قابل توجهی از نیازهای اطلاعاتی مرتبط با جریان‌های نقدی را مرتفع می‌نماید. با توجه به رسالت اول گزارشگری مالی یعنی فراهم آوردن اطلاعات جهت کمک به سرمایه‌گذاران در ارزیابی مبلغ، زمانبندی و پیش‌بینی جریان‌های نقدی و نقش حسابداری تعهدی به عنوان مبنای تهیه این ...

متن کامل

ارائه الگویی تطبیق یافته جهت بخش بندی مشتریان بانک‌ها بر اساس ارزش دوره عمر آن‌ها

استفاده از ابزارهایی تحت عنوان امتیاز بندی مشتریان باعث می‌شود سازمان بیشترین تلاش خود را برای شناسایی، جذب و حفظ مشتریان با سودآوری بیشتر متمرکز کند. ارزش طول عمر مشتری، می‌تواند به عنوان ملاک ارزش‌گذاری مشتریان، چارچوب مناسبی برای این کار باشد. هدف اصلی از این مقاله ارائه الگویی تطبیق یافته جهت بخش‌بندی مشتریان در صنعت بانکداری خرد به کمک مدل مرجع RFM می‌باشد. این تحقیق بر اساس متدولوژی مشهور...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شهید باهنر کرمان - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023